[Day2]機器學習入門：概念與應用

2024 iThome 鐵人賽

DAY 2

AI/ ML & Data

深度學習的學習之旅：從理論到實作系列第 2 篇

16th鐵人賽 ai artificial inteligence 人工智慧機器學習

bin

團隊NUTC imac

2024-09-10 00:07:58

2659 瀏覽

分享至

機器學習是什麼

隨著科技的進步，機器學習已成為現代科技發展的重要推動力。從推薦系統到自駕車，機器學習的應用無處不在。本篇文章將帶你入門，了解機器學習的基本概念和應用。

所以什麼是機器學習？
機器學習（Machine Learning, ML）是一種人工智慧（AI）技術，通過分析數據來自動學習並改進模型性能。機器學習的核心是讓電腦從數據中學習，而不是透過寫死的規則。

舉例來說，在以前傳統要辨識貓和狗上，我們會給他一些規則，像是

貓有尖尖的耳朵，狗的耳朵比較圓。
貓通常比較小，狗通常比較大。
貓會喵喵叫，狗會汪汪叫。
接著就會透過這些規則去辨認是貓還是狗。

那在機器學習上跟傳統的不同則是，我們不告訴電腦具體的規則，而是給他看很多張貓和狗的照片。每當他看到一張照片時，我們告訴他這是貓還是狗。經過一段時間的學習，他最後可以自己總結出一些規律，並在看到新的照片時，自己判斷這是貓還是狗。

可以發現他不是根據明確的規則(貓會喵喵叫，狗會汪汪叫)來運作，而是通過分析大量的數據，從中學習和總結規律，從而在遇到新的情況時，做出正確的判斷。

機器學習的類型

機器學習主要分為以下四種類型：

監督式學習（Supervised Learning）
- 監督式學習是一種所有資料都被「標註」（label）的學習方法。每個輸入數據都有對應的輸出標籤，這使得機器能夠根據這些標註進行學習，並在未來進行預測時判斷誤差。
- 舉個例子來說，你想教一個小朋友如何辨識狗。為此，你準備了100張狗的照片，每張照片都標註為「狗」。小朋友通過這些已標註的照片學習狗的特徵，然後在看到新的照片時，就能根據他所學到的知識來判斷這是不是狗。
- 監督式學習需要大量的人工分類工作，因此對人類來說相對辛苦，但對機器來說較為簡單。
非監督式學習（Unsupervised Learning）
- 非監督式學習是一種資料沒有標註的學習方法。機器必須自行從數據中尋找特徵並進行分類。這種方法不需要人工進行分類，對人類來說最簡單，但對機器來說挑戰較大，且預測誤差相對較大。比如，使用非監督式學習來識別大象和長頸鹿，機器需要自行分析100張照片中的特徵，並根據這些特徵進行分類。機器所得到的分類結果可能不完全正確，但在某些情況下仍然是有效的。
半監督式學習（Semi-supervised Learning）
- 半監督式學習結合了監督式和非監督式學習的優點。這種方法對少部分資料進行標註，機器通過這些有標註的資料學習特徵，並對其餘的無標註資料進行分類。這樣可以在減少標註工作的同時提高預測的準確性。
- 舉例來說，我們現在有100張照片，但我們只標註其中10張是貓還是狗，而機器透過這10張照片的特徵來學習並分類剩下的90張照片。因為原本的部分資料提供了明確的依據，因此預測結果通常比非監督式學習更為準確。
強化式學習（Reinforcement Learning）
- 強化式學習是一種機器通過與環境互動來學習並最大化預期收益的學習方法。在這種方法中，不需要標註資料，而是通過反饋告訴機器每個動作的好壞，機器根據這些反饋逐步修正自己的行為，最終達到最佳結果。
- 可以把它想像成在訓練一隻小狗學會坐下。每次當小狗聽到命令並坐下時，就給牠一塊餅乾作為獎勵。如果小狗不坐下，則不給餅乾。小狗會逐漸明白坐下會得到獎勵，並學會在聽到命令後坐下。這個過程就是一種強化學習。
- 強化式學習是一種通過反覆試驗和環境反饋來逐步優化行為的學習方法，特別適合用於那些需要決策和策略優化的應用場景。

機器學習的基本流程

機器學習的基本流程通常包括以下步驟：

收集資料（Gathering data）
- 從各種來源收集相關的數據，這些數據可以來自數據庫、網路爬蟲、實驗結果等。數據的質量和數量直接影響模型的性能。
準備數據（Preparing that data）
- 清理和處理收集到的數據，這包括處理缺失值、去除異常值、數據標準化、數據分割（例如訓練集和測試集的劃分）等，確保數據適合用來訓練模型。
選擇模型（Choosing a model）
- 根據問題的特性和需求，選擇合適的機器學習模型，例如線性回歸、決策樹、支援向量機、神經網路等。不同的模型適合不同類型的問題。
訓練模型（Training）
- 使用準備好的訓練數據來訓練選定的模型，這個過程中模型會學習數據中的規律和模式。訓練的過程會調整模型的參數，使其能夠在輸入數據和目標標籤之間建立映射。
評估分析（Evaluation）
- 使用測試數據評估模型的性能，這包括計算準確率、精確率、召回率、F1分數等指標，確保模型在未見過的數據上也能表現良好。
調整參數（Hyperparameter tuning）
- 根據評估結果，調整模型的超參數（例如學習率、正則化參數等），或選擇不同的特徵工程方法，優化模型的性能。
預測推論（Prediction）
- 使用訓練好的模型對新數據進行預測，應用於實際場景中，例如銷售預測、影像辨識、語音識別等。模型的預測結果可以用來輔助決策。

機器學習的應用場景

說了這麼多模糊的東西，那到底機器學習可以用在哪些地方?
首先我們必須要知道，機器學習在各行各業中都有廣泛的應用，而且幾乎隨處可見，以下是幾個典型案例：

推薦系統：
- 電商平台使用機器學習來分析用戶的瀏覽和購買行為，從而提供個性化的商品推薦。例如，當我們在購物網站上瀏覽商品時，系統會根據我們的歷史行為推薦可能感興趣的商品，從而提高銷售額和用戶滿意度。
金融風險控制：
- 在金融領域，機器學習技術被廣泛用於信用評分、欺詐檢測和市場預測。通過分析大量的金融數據，機器學習算法可以幫助金融機構快速識別高風險的借款人、檢測可疑的交易行為，並預測市場趨勢，從而有效降低風險。
醫療診斷：
- 機器學習在醫療領域的應用也非常廣泛。它可以幫助醫生分析醫療影像（如X光片、CT掃描）和病歷數據，提高診斷的準確性和效率。例如，機器學習算法可以自動檢測影像中的腫瘤或異常，協助醫生做出更快速和準確的診斷。
自動駕駛：
- 自動駕駛汽車依賴於機器學習技術來識別和理解道路環境。通過攝像頭、雷達和其他感應器，自動駕駛汽車可以實時獲取道路狀況、行人和其他車輛的信息，並通過機器學習算法進行分析，從而實現自動駕駛功能，提升行車安全性。